# 安装Scikit-learn
# pip install scikit-learn

import pandas as pd
import sklearn

# 1、特征工程
# 对原始的数据进行处理，转换成算法可以识别的数据
# pip install xlrd

data = pd.read_excel("../data/data.xls")

# 目标值
y = data["还款拖欠情况"]
# 特征向量
x = data.drop(labels=["还款拖欠情况"], axis=1)

# 切分数据集
from sklearn.model_selection import train_test_split

# 将数据切分成训练集和测试集
# test_size测试集占比
# 训练集用于训练模型
# 测试集用于测试模型好坏
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

# 2、选择算法
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()

# 3、将训练集带入算法训练模型
lr.fit(x_train, y_train)

# 4、将测试集带入模型中，预测结果
predict_y = lr.predict(x_test)

from sklearn.metrics import classification_report

# 模型评估
print(classification_report(y_test, predict_y))
